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摘 要 : 工业 应 用 中 ， 表 面 压 印 字符 图 像 全 监督 语义 分 割 将 会 给 企业 带 来 高 兄 的 数据 集 标注 成 本 。 针 对 该 问题 ， 

提出 了 双 支 路 特征 融合 的 域 适应 分 割 方法 (Dual-branch Feature Fusion Domain Adaptation，DbFFDA)。 首 先 ， 借 鉴 U- 
Net 的 跨 层 连接 设计 思路 ， 提 出 了 双 分 支 上 采样 结构 的 残 差 域 适应 分 割 网 络 (Residual Adaptation Network, Res-Adp). 
同时 ， 提 出 了 融合 特征 输入 用 于 提升 网 络 分 割 性 能 ， 克 服 了 字符 缺失 的 问题 。 此 外 ， 提 出 了 分 割 连续 性 损失 函数 
Lc， 抑制 了 分 割 图 像 中 噪点 的 产生 。 在 石墨 电极 表面 压 印字 符 无 监督 分 割 实验 中 ， 所 提 方 法 MoU 值 可 达 69.60%。 实 


际 分 割 效 果 已 基本 满足 
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识别 需求 ， 有 望 在 特定 工业 场景 中 投入 实际 应 用 ， 为 企业 节省 巨大 的 数据 集 标注 成 本 。 
无 监督 训练 


Double branch upsampling domain adaptive network for unsupervised segmentation 
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Abstract: In industrial applications, fully supervised semantic segmentation of surface-imprinted character images will bring 


high dataset annotation costs to enterprises. To solve this problem, this paper proposes a dual-branch feature fusion domain 
adaptation (DbFFDA) method. First, the method draws on the design idea of U-Net's cross-layer connection, and proposes a 
residual adaptation network (Res-Adp) with a dual-branch upsampling structure. At the same time, this method proposes 


fusion feature input to improve network segmentation performance and overcome the problem of missing characters. 


Furthermore, this method proposes a segmentation continuity loss function Leo , which suppresses the generation of noise in 


segmented images. In the unsupervised segmentation experiment of imprinted characters on the surface of graphite electrodes, 
the MIoU value of the proposed method can reach 69.6095. The actual segmentation effect has basically met the needs of 


character recognition, and it is expected to be put into practical applications in specific industrial scenarios, saving enterprises 
huge dataset labeling costs. 
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0 引言 像 语义 分 割 的 效果 ， 具 有 传统 语义 分 割 方法 无 可 比拟 的 优点 。 
S 然而 ， 上 述 各 网 络 均 采用 全 监督 的 方式 进行 训练 ， 即 需 
图 像 语义 分 割 是 计算 机 视觉 领域 重要 的 研究 方向 ， 在 要 手工 标注 的 标签 作为 训练 数据 ， 带 来 了 巨大 的 手工 标注 成 
动 驾 驶 、 字 符 识别 等 领域 具有 广泛 的 应 用 前 景 ， 其 任务 目标 。 本 。 随 着 域 自 适应 无 监督 语义 分 市 网 络 的 研究 逐渐 兴起 ， 这 
是 将 图 像 中 各 像素 点 归纳 解析 为 具有 特定 语义 信息 的 类 别 。 一 问题 有 望 得 到 解决 。 域 适应 任务 的 重点 是 优化 对 齐 两 域 数 
在 工业 应 用 中 ， 因 受 光 线 、 打 印 机 质量 影响 ， 表 面 压 印字 符 ” 据 的 特征 分 布 ， 提 取 两 域 数据 的 共有 特征 对 目标 域 数据 进行 
图 像 的 分 割 难度 较 大 ， 传 统 算法 很 难 对 其 进行 精确 的 分 割 。 预测 。 研 究 者 们 提出 了 各 种 域 适 应 方法 ， 其 中 大 多 数 域 适 应 
自 深度 学 习 技术 问世 以 来 ， 众 多 研究 者 在 图 像 语 义 分 割 领域 ”方法 均 使 用 生成 对 抗 网 络 (Generative Adversarial Networks, 
进行 了 一 系列 探索 ， 分 割 效果 及 精度 不 断 提 升 。2014 年 GAN)D 对 抗 学 习 进 行 域 适应 训练 。 将 分 割 网 络 作为 生成 器 ， 
Long 等 人 加 提出 的 (Fully Convolutional Networks，FCN) 网 络 。” 源 域 和 目标 域 图 像 送 入 分 割 网 络 (生成 器 ) 得 到 的 分 割 预测 交 
完全 由 卷 积 层 构 成 ， 不 包含 全 连接 结构 ， 为 语义 分 割 网 络 的 蔡 送 入 判别 器 中 ， 分 割 网 络 与 判别 器 对 抗 训练 以 对 齐 两 域 特 
设计 提供 了 新 思路 。2015 年 提出 的 U-NetD 设 计 了 一 个 编码 。 ” 征 的 分 布 ， 实 现 域 适应 分 割 。Ganin 等 人 提出 的 Domain- 
与 解码 部 分 完全 对 称 的 U 型 网 络 结构 ， 并 引入 了 跨 层 连接 融 。 Adversarial Neural Network，DANN)I 由 特征 提取 模块 、 分 
合 网 络 各 层级 间 的 信息 ， 在 医学 影像 分 割 领域 取得 了 巨大 成 ”类 模块 和 域 判 别 模块 组 成 。 该 网 络 同时 构造 了 图 像 分 类 损失 
功 。2018 年 ，Chen 等 人 6-9 提 出 了 DeepLab 系列 网 络 ， 其 最 1 域 分 类 损失 等 两 个 损失 函数 ， 在 训练 过 程 中 既 提 升 了 网 络 
重要 的 贡献 是 提出 了 空洞 空间 池 化 金字 塔 (Atrous Spatial ”性 能 又 对 齐 了 两 域 数据 的 分 布 ， 提 升 了 对 目标 域 图 像 的 分 类 
Pooling Pyramid, ASPP) 模 块 。 卷 积 神经 网 络 (Convolutional 。” 能 力 。 因 使 用 单 域 判 别 器 的 对 抗 性 域 适应 方法 无 法 利用 复杂 
Neural Networks，CNN) 的 出 现 ， 极 大 的 提升 了 复杂 场景 图 的 多 模 结 构 ，Pei 等 人 外 提出 的 (Multi-Adversarial Domain 
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Adaptation，MADA) 构 造 了 多 个 判别 器 进行 域 适应 训练 。 多 
个 域 判 别 器 可 从 各 个 维度 对 齐 两 域 数据 的 分 布 ， 提 升 域 适 应 
效果 。Luo $& A D0 5i d HJ (Category-Level Adversarial 
Network, CLAN) 构 造 了 类 别 级 别 的 对 抗 网 络 ， 旨 在 整体 对 齐 
一 致 性 中 强化 局 部 语义 一 致 性 。Wang 等 人 00 提 出 的 (Patch- 
based Output Space Adversarial Learning, pOSAL) 设 计 了 一 个 
轻 量 且 高 效 的 分 割 网 络 。 并 提出 一 种 新 的 形态 感知 分 割 损失 
来 指导 网 络 生成 准确 和 平滑 的 分 割 预测 。Wang 等 人 0 提出 
JY 34 A A R UE h I Du ^£ 21 (Boundary and Entropy-driven 
Adversarial Learning，BEAL) 域 适应 框架 ， 以 改进 模糊 边界 
区 域 上 的 分 割 性 能 。BEAL 通过 鼓励 目标 域 的 边界 预测 与 源 
或 相似 ， 以 生成 更 准确 的 边界 。Zhu 等 人 03] 提 出 的 循环 式 生 
成 对 抗 网 络 (Cycle-Consistent Generative Adversarial Networks, 
CycleGAN) 将 两 个 GAN 网 络 级 联 在 一 起 ， 并 引入 了 循环 一 
致 性 损失 函数 ， 构 造 了 一 个 源 域 图 像 与 目标 域 图 像 的 双向 风 
格 迁 移 网 络 ， 因 此 可 生成 接近 目标 域 数 据 分 布 的 模拟 样本 协 
助 训 练 。Chen 等 人 04 对 CycleGAN 结构 进行 改进 。 在 目标 
域 到 源 域 的 生成 器 上 添加 了 分 割 分 文 ， 从 图 像 和 特征 等 两 个 
角度 对 齐 源 域 图 像 和 目标 域 图 像 的 分 布 ， 在 医学 MRI 图 像 
和 CT 图 像 之 间 的 域 适 应 分 制 上 取得 了 巨大 成 功 。 张 勋 晖 等 
人 5 提出 的 域 适 应 分 割 方 法 在 分 割 网 络 中 引入 了 空洞 空间 
池 化 金字 塔 (ASPP) 提 取 各 尺度 的 图 像 特 征 以 提升 分 割 性 能 ， 
并 将 分 割 预测 的 信息 烂 作用 于 对 抗 损失 ， 以 减 小 域 偏 移 。 
Liu 等 人 提出 的 (Source-Free Domain Adaptation，SFDA)09 网 
络 提供 了 一 个 在 源 域 数据 集 无 法 公开 的 应 用 场景 中 进行 域 适 
应 训练 的 方法 。 通 过 从 源 域 模型 中 恢复 和 筛选 源 域 数据 ， 仅 
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b) 融合 特征 输入 。 针 对 表面 压 印 字符 图 像 噪点 多 、 字 
符 边缘 极为 重要 的 特点 ， 将 表面 压 印字 符 灰 度 图 像 、 中 值 滤 
波 图 像 和 边缘 检测 图 像 作为 网 络 输 入 的 3 个 通道 ， 融 合 送 入 
网 络 进行 训练 。 

c) 构造 分 割 连续 性 损失 函数 Lc 约束 分 割 网 络 的 训练 。 
根据 分 割 图 像 中 各 类 对 象 内 部 连续 的 先 验 知识 提出 了 分 割 连 
续 性 损失 函数 rw ， 通 过 约束 源 域 分 割 图 像 的 生成 间接 提升 
标 域 分 割 效果 ， 抑 制 了 字符 中 的 空洞 与 背景 中 噪点 的 产生 。 


1 ” 双 支 路 特征 融合 的 域 适应 分 割 方法 DbFFDA 


11 域 适 应 分 割 框 架 

域 适 应 分 割 框架 如 图 1 所 示 。 分 割 网 络 为 本 文 所 提 双 分 
支 上 采样 网 络 Res-Adp， 为 两 域 数据 所 共享 Is 为 源 域 (模拟 ) 
数据 ， 其 标签 极 易 获取 ， 监 督 信息 丰富 ， 具 有 完备 的 标签 集 
Ls。I 为 目标 域 (真实 ) 数 据 ， 无 监督 信息 。 


源 域 图 像 预 测 P: 


ei ONE I 
双 分 支 上 采样 分 割 网 络 ResAdp 
图 1 域 适应 分 割 框架 

Fig. 1 Domain adaptive segmentation framework 


源 域 数据 为 计算 机 生成 的 模拟 图 像 ， 标 签 无 须 手 工 标注 ， 


马尔 可 夫 判 别 器 


使 用 训练 完成 的 源 域 模型 和 目标 域 数据 集 即 可 实现 域 适应 。 


标 域 数 据 为 摄像 机 采集 到 的 真实 图 像 ， 训 练 数据 无 标注 信 


Araslanov 等 人 17 提出 的 轻 量化 域 适 应 分 割 方 法 针对 现 有 网 
络 模型 较为 复杂 、 资 源 消耗 大 的 缺点 ， 按 弃 了 对 抗 训练 和 风 
格 迁移 等 常用 的 域 适 应 方法 。 采 用 加 噪 、 翻 转 和 缩放 等 数据 
增强 技术 确保 跨 域 的 图 像 语义 分 割 的 一 致 性 。Wang 等 人 提 


em 


a) 源 域 数 据 的 全 监督 训练 。 
(a) 源 域 (模拟 ) 图 像 Is 输入 分 割 网 络 后 得 到 源 域 预测 Ps, 
Ps 可 与 其 标签 Ls 构造 交叉 炉 损失 函数 ， 以 全 监督 的 方式 训 


出 的 (Correlation-Aware Domain Adaptation, CorDA)!81{%¥ H 
两 域 通用 的 自 监督 深度 估计 的 指导 来 弥合 领域 差距 。 该 方法 
在 目标 深度 估计 的 帮助 下 显 式 学 习 任务 特征 相关 性 以 改善 预 


练 分 割 网 络 Res-Adp. ^2 XO ARARA 


14 
La = : log( p?) - (1— y?)log(1—- p)] (1) 
£z 


MAR. Saha 等 人 09 提 出 了 一 种 编码 视觉 任务 关系 的 方法 ， 
用 于 提升 无 监督 域 适应 网 络 的 性 能 。 提 出 的 跨 任 务 关 系 层 
(Cross-Task Relation Layer，CTRL) 编 码 了 语义 和 深度 预测 之 
间 的 任务 依赖 关系 。 刘 少 鹏 等 人 PJ 提出 了 一 种 两 阶段 分 割 
网 络 一 一 CDR-GANs。 各 分 割 阶段 都 包含 语义 分 割 网 络 、 生 
成 器 和 判别 器 等 三 部 分 ， 训 练 过 程 中 ， 判 别 器 指导 语义 分 割 
网 络 和 生成 器 学 习 原 图 和 分 割 预测 的 联合 概率 分 布 。Li 等 
人 PP 针对 现 有 域 适 应 算法 使 用 共享 的 源 域 网 络 学 习 跨 域 的 
特征 表示 限制 了 对 未 标记 的 目标 域 对 象 的 泛 化 能 力 的 问题 。 
提出 了 一 种 可 转移 语义 增强 (Transferable Semantic 
Augmentation，TSA) 方 法 ， 通 过 隐 式 生成 关于 目标 域 对 象 的 
源 域 特征 来 增强 网 络 的 适应 能 
本 文 所 提 双 支 路 特征 融合 的 域 适 应 分 割 方法 DbFFDA 
在 网 络 结构 、 图 像 预 处 理 和 损失 函数 等 方面 对 U-Net 进行 改 
进 ， 在 石墨 电极 压 印 字符 数据 集 上 取得 了 较为 理想 的 分 割 效 
果 ， 基 本 满足 工业 应 用 需求 。DbFFDA 创新 之 处 包含 以 下 3 
个 方面 : 
a) 提出 一 种 双 分 文 上 采样 结构 的 无 监督 语义 分 割 网 络 
Res-Adp。 在 U-Net 的 跨 层 连接 中 加 入 了 残 差 模块 ， 以 搭建 
残 差 支 路 用 于 两 域 特 征 对 齐 。 网 络 上 采样 过 程 中 的 各 级 特征 
分 别 通过 残 差 支 路 与 卷 积 支 路 进行 上 采样 。 残 差 支 路 负责 特 
征 对 齐 ， 以 使 用 域 不 变 特征 对 图 像 进行 分 制 ， 卷 积 支 路 负责 


可 


T 


其 中 ， po 为 源 域 预测 中 的 像素 点 ， Y? 为 源 域 标签 中 的 像素 
点 。 


(b) 目标 域 (真实 ) 图 像 ITr 输入 分 割 网 络 后 得 到 目标 域 预 
测 Pr， 因 目标 域 图 像 Ir EERE, MPRE SCRI KR ER 
数 进 行 分 割 训练 。 
b) 分 割 网 络 (生成 器 ) 与 判别 器 的 对 抗 训练 。 
为 了 使 得 使 用 源 域 图 像 训 练 的 分 割 网 络 对 目标 域 图 像 也 
能 进行 精准 的 分 割 ， 需 要 对 齐 两 域 数据 的 分 布 ， 进 行 域 适应 
训练 。 将 源 域 预 测 Ps 与 目标 域 预测 Pr 分别 送 入 判别 器 ， 与 
分 割 网 络 (生成 器 ) 进 行 对 抗 训练 。 对 抗 性 损失 函数 Lou 如 下 : 
Loan = E. s [log D(S (x5))] E, o, (s [log (17 D(S (xr ))) (2) 
RB. x Ka DIAR ARREZ, S 为 分 割 网 络 ， 


D 为 判别 器 。 
网 络 整体 损失 函数 工 由 三 部 分 构成 : 


L= Lom + Log + Leon 3) 

中 ， Lon 为 对 抗 性 损失 函数 ， Les HELMAR Leon 
为 本 文 所 提 分 割 连 续 性 损失 函数 ， 将 在 本 文 第 2.4 节 中 详细 
阐述 。 
判别 器 的 优化 目标 是 鉴别 出 输入 的 分 割 预测 是 源 域 预测 

Ps 还 是 目标 域 预测 Pr。 而 分 割 网 络 (生成 器 ) 的 优化 目标 是 使 
得 判别 器 难以 甄别 分 割 预测 的 来 源 。 训 练 时 ， 判 别 器 训练 方 
向 是 对 源 域 预测 输出 全 1 和 矩阵， 对 目标 域 预测 输出 全 0 ERE, 


AL 


保留 本 域 特征 ， 以 使 用 本 域 独 有 的 图 像 特征 对 分 割 细节 进行 
补充 。 


确定 分 割 预测 的 类 别 。 判 别 器 对 目标 域 预测 的 判别 结果 与 同 
形 的 全 0 矩阵 构造 L2 范 数 ， 对 源 域 预测 的 判别 结果 与 同形 
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录用 定稿 


的 全 1 矩阵 构造 L2 范 数 ， 判 别 器 优化 减 小 两 损失 函数 之 和 。 


分 割 网 络 优化 目标 是 使 得 目标 域 预测 送 入 判别 器 后 输出 
全 1 和 矩阵 ， 输 出 接近 源 域 预 测 的 分 割 结果 。 判 别 器 对 目标 域 
预测 的 判别 结果 与 同形 的 全 1 矩阵 构造 L2 范 数 ， 源 域 输入 
图 像 与 其 标签 构造 非 对 抗 性 损失 函数 ， 分 割 网 络 优化 减 小 两 
损失 函数 之 和 。 
非 对 抗 性 损失 函数 Lcs 和 Len 负责 训练 分 制 网 络 的 分 割 
性 能 ， 对 抗 性 损失 函数 Lom 负责 训练 分 割 网 络 的 域 适 应 能 
在 两 者 的 共同 约束 下 ， 分 割 网 络 在 提升 对 源 域 (模拟 ) 图 像 分 
割 性 能 的 同时 又 对 齐 了 两 域 数据 的 分 布 ， 进 而 提升 了 对 目标 
域 ( 真 实 ) 图 像 的 分 割 性 能 。 达 到 了 对 目标 域 (真实 ) 图 像 无 监 
督 分 割 的 目标 。 
1.0 双 分 支 上 采样 分 割 网 络 Res-Adp 

2015 年 提出 的 U-Net 设计 了 一 个 编码 与 解码 部 分 完全 对 
称 的 品 形 网 络 结构 ， 并 引入 了 跨 层 连接 融合 网 络 各 层级 间 的 
言 息 ， 在 医学 影像 分 割 领 域 取得 了 巨大 成 功 。U-Net 结构 如 
2 所 示 。U-Net 最 大 的 创新 点 是 网 络 对 称 位 置 的 跨 层 连接 
结构 ， 由 于 上 下 采样 会 不 可 避免 的 引起 特征 丢失 ， 而 该 网 络 
可 以 同时 利用 各 个 层级 的 特征 进行 分 割 ， 提 升 网 络 性 能 。 残 
差 网 络 (ResNebP2 于 2015 年 提出 ， 解 决 了 网 络 深度 过 深 时 性 
能 不 再 提升 的 问题 。 网 络 某 层 特征 图 通过 两 层 卷 积 层 提取 特 
征 后 与 该 层 特 图 直接 相 加 并 激活 即 得 残 差 块 输出 。 胡 扬 涛 等 
人 提出 的 AR-UnetP3] 将 残 差 模块 引入 U-Net 中 ， 避 免 了 U- 
Net 中 的 梯度 消失 以 及 图 像 结构 信息 丢失 等 问题 。 
U-Net 对 于 全 监督 分 割 任务 可 以 达到 较 好 的 分 割 效果 。 
对 于 域 适应 分 割 任 务 ， 源 域 图 像 进行 全 监督 训练 ， 分 割 网 络 
与 判别 器 共同 进行 对 抗 训练 。U-Net 由 于 结构 过 于 简单 ， 特 
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征 之 间 直 接 拼接 ， 无 法 很 好 的 对 齐 两 域 特征 。 

Res-Adp 网 络 在 U-Net 编码 阶段 与 解码 阶段 的 跨 层 连接 
中 引入 了 残 差 块 对 齐 两 域 特 征 。 为 了 避免 因 对 齐 两 域 特征 而 
丢失 本 域 特征 的 问题 ， 设 计 了 双 分 支 结构 改善 该 问题 。 网 络 
上 采样 过 程 中 的 各 级 特征 分 别 通过 残 差 支 路 与 卷 积 支 路 进行 
上 采样 。 残 差 支 路 负责 特征 对 齐 ， 以 使 用 域 不 变 特征 对 图 像 
进行 分 割 ， 卷 积 支 路 负责 保留 本 域 特征 ， 以 使 用 本 域 独 有 的 
图 像 特征 对 分 割 细节 进行 补充 。 


[UpSampling (US) — DownSampling (DS) | 
| Convolution (Cv) 


Concat (C) | 
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X 1024 
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QQ 
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K2 U-Net 网 络 结构 
Fig.2 Network structure of U-Net 
Res-Adp 结构 如 图 3 所 示 ， 给 出 了 图 例 ， 并 在 连接 线 上 
列 出 了 操作 的 简称 。 特 别 的 ， 图 中 连接 线 上 的 C 表示 先 执 行 
连接 线 对 应 操作 再 与 其 他 特征 图 进行 拼接 。Ri-C 表示 先 通 
过 i 个 残 差 块 再 与 其 他 特征 图 进行 拼接 ，US-C 表示 先 上 采 
样 再 与 其 他 特征 图 进行 拼接 。 特 征 图 旁 的 数字 ， 喜 号 左边 的 
数 与 
w 


TUER S ARRERA KS FL 88A RRAK eE, 358 
边 的 数值 表示 该 层 特征 图 的 通道 数 。 如 1/2, 128 表示 该 特 
征 图 边 长 为 网 络 输入 图 像 的 /2， 包 含 128 个 通道 。 


| 源 域 图 像 
| 算 机 模 所 


1/2,128 


| Convolution (Cv) 

1 — Residual block (R) 

| DownSampling (DS) 
| UpSampling (US) 
1 Concat (C) 


1/4,7684US-C 
1/2,384 4US-C 


图 3 分 割 网 络 Res-Adp 结构 
Fig.3 Structure of segmentation network Res-Adp 


输入 图 像 使 用 2 层 卷 积 扩充 通道 数 后 进行 4 次 下 采样 到 
达 网 络 最 深层 级 ， 按 照 下 采样 过 程 中 特征 图 的 尺度 将 网 络 划 
分 为 1-5 层 ， 分 别 记 为 FA。1 层 为 输入 图 像 所 在 层 ，5 层 为 
网 络 最 深层 。 

下 采样 到 网 络 最 深层 的 特征 图 Fs- 卷 积 2 次 后 记 为 Fs- 
B。 从 Fs-a 和 Fs- 分 别 引 出 一 条 支 路 ， 支 路 一 经 1 个 残 差 块 
对 齐 特 征 后 上 采样 到 第 4 层级 。 与 此 同时 ， 下 采样 到 第 4 层 
的 特征 图 F4A 通 过 2 个 残 差 块 后 与 支 路 一 拼接 ， 得 到 融合 特 
征 F4F。 

支 路 二 经 2 层 卷 积 后 上 采样 到 第 4 层级 ， 与 F4r 通 过 2 
个 残 差 块 后 的 特征 图 拼接 得 到 Fans 

此 后 特征 图 逐步 上 采样 ， 对 于 上 采样 过 程 中 的 各 层级 特 


征 图 ， 均 从 Fis 引出 两 条 支 路 。 第 一 支 路 为 残 差 支 路 ， 用 于 
对 齐 两 域 特征 。 第 二 支 路 为 上 采样 支 路 ， 用 于 保留 本 域 独 有 
特征 。 

从 Fas 引出 两 条 文 路 。 支 路 一 经 2 个 残 差 块 对 齐 特征 后 
上 采样 到 第 3 层级 。 与 此 同时 ， 下 采样 到 第 3 层 的 特征 图 F- 
A 通过 3 个 残 差 块 后 与 支 路 一 拼接 ， 得 到 融合 特征 F3-F。 

支 路 二 经 过 2 层 卷 积 后 上 采样 到 第 3 层级 ， 与 F3F 通 过 
3 个 残 差 块 后 的 特征 图 拼接 得 到 Fin. 

同 理 ， 重 复 上 述 操作 ， 依 次 得 到 Fon. Fes. BÉ DG 
样 过 程 中 网 络 深度 逐步 变 浅 ， 对 齐 两 域 特征 所 需 残 差 块 数量 
逐步 增加 ， 从 第 5 层 的 1 个 残 差 块 依次 增加 到 第 1 层 的 5 个 
残 差 块 。 
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第 1 层 中 ，Fi-e 通过 2 层 卷 积 调整 通道 数量 后 映射 为 概 
率 分 布 图 再 求 最 大 值 索 引 即 得 网 络 分 割 预测 。 

13 马尔 可 夫 判 别 器 

DbFFDA 的 判别 器 为 马尔 可 夫 判 别 器 P9。 如 图 4 所 示 ， 
分 割 预测 输入 判别 器 进行 4 次 下 采样 后 再 进行 1 次 卷 积 操作 ， 
即 可 输出 通道 数 为 1 的 特征 图 。 马 尔 可 夫 判 别 器 也 称 为 
PatchGAN ， 输 出 特征 图 上 的 一 点 表征 了 分 割 预测 上 一 块 区 
域 的 真实 性 。 判 别 器 的 优化 方向 是 鉴别 出 输入 判别 器 的 分 割 
预测 属于 源 域 预测 还 是 目标 域 预测 。 分 割 网 络 的 优化 方向 是 
生成 判别 器 无 法 分 辨 的 分 割 预测 。 两 者 相互 博弈 ， 不 断 提升 
自身 性 能 ， 以 达到 对 齐 两 域 数据 分 布 的 目的 。 


| Convolution (Cv) l 
| DownSampling (DS) ! 
M e sn en fed al 
| 
| 


1/2.128 
1/4,256 图 例 


1/16, 
pe 1024  1/16,1 


| 
| 
| 
| 
判别 结果 | 
| 
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图 4 马尔 可 夫 判 别 器 结构 
Fig.4 Markov discriminator structure 

1.4 融合 特征 输入 

在 复杂 多 变 的 自然 光线 条 件 下 ， 受 打印 机 打印 质量 及 
像 采 集 设 备 性 能 限制 ， 表 面 压 印 字符 图 像 具 有 明暗 不 均 、 
点 较 多 的 特点 。 因 此 直接 将 原 图 像 送 入 网 络 训练 会 给 分 割 
像 带 来 大 量 二 值 品 点 ， 严 重 影响 分 割 图 像 的 纯净 度 。 

将 摄像 机 采集 到 的 表面 压 印 字符 彩色 图 像 转换 为 灰 度 
像 作 为 网 络 输 入 数据 的 第 1 通道 。 

选用 中 值 滤波 的 方法 去 除 原 图 中 的 噪点 ， 前 景 信息 也 最 
大 程度 地 得 到 了 保留 。 将 中 值 滤波 图 像 作 为 网 络 输入 数据 的 
第 2 通道 。 

表面 压 印 字符 图 像 中 字符 的 边缘 是 前 景 的 关键 信息 ， 对 
字符 的 分 割 具有 重要 意义 。 使 用 索 贝尔 (Sobel) 算 子 对 中 值 渡 
波 图 像 进 行 边缘 提取 ， 所 得 图 像 作为 网 络 输入 数据 的 第 3 通 
道 。 


对 


"| xm 


R] 


图 5 为 网 络 输入 的 3 通道 数据 示例 图 ， 将 3 通道 图 像 拼 
接 后 送 入 网 络 进 行 训练 。 
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图 5 融合 特征 输入 

Fig.5 Fusion feature input 
1.5 分 割 连续 性 损失 函数 Lc 
姑 表 面 压 印 字符 图 像 噪点 较 多 ， 部 分 字符 扭曲 变形 ， 故 
仅 使 用 交叉 炉 函数 作为 非 对 抗 性 损失 函数 对 分 割 网 络 进行 训 
练 ， 目 标 域 分 割 图 像 上 出 现 了 字符 空洞 与 二 值 噪点 。 
为 解决 该 问题 ， 受 传统 计算 机 图 像 处 理 算 法 启发 ， 提 出 
分 割 连续 性 损失 函数 xcw 。 二 值 标 签 图 中 单个 字符 内 部 是 连 
续 的 ， 背 景 亦 连续 ， 无 二 值 噪点 相互 穿插 ， 即 前 景 与 背景 相 
对 独立 。 因 此 N 通道 标签 中 各 通道 上 值 为 1 的 点 与 值 为 0 的 
点 均 应 当 是 连续 的 ， 即 某 类 与 其 他 类 相互 独立 且 内 部 连续 。 


如 图 6 所 示 ， 除 边界 点 外 ， 某 点 与 其 邻 域 的 点 的 值 应 当 相 同 。 
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图 6 N 通道 标签 某 通道 中 的 某 点 及 其 四 邻 域 


Fig.6 Point ofa channel in an n-channel label and 
its four neigh-borhoods 
因 网 络 分 割 图 像 由 N 通道 特征 图 映射 为 概率 分 布 图 
最 大 值 索 引得 到 ， 故 网 络 输出 的 N 通道 特征 图 也 应 当 
标签 相同 的 性 质 ， 即 各 点 的 激活 值 连续 。N 通道 特征 图 某 通 
道上 的 某 点 hijw 应 具有 与 其 邻 域 相近 的 激活 值 ， 故 可 构造 
割 连续 性 损失 函数 Leon : 


nl 
*[Aci) 7 Aio] * Aio 7 Ain] 


其 中 ， 4 代表 第 上 通道 上 位 于 已 旋 处 的 点 ， Anos Aew a 
Asa. Aun 分 别 为 该 点 的 左 、 右 、 上 、 下 邻 域 。 该 函数 的 
引入 有 效 抑制 了 字符 中 空洞 的 产生 。 


2 ”实验 验证 


2.1 实验 数据 

域 适 应 分 割 有 效 解决 了 语义 分 割 数据 集 手 工 标注 成 本 高 
晶 的 问题 ， 具 有 广阔 的 应 用 前 景 。 在 工业 应 用 中 ， 众 多 应 用 
场景 需要 使 用 语义 分 割 算法 对 采集 得 到 的 图 像 进行 分 割 以 进 
行 后 续 处 理 。 
在 石墨 电极 生产 这 一 工业 场景 中 ， 为 方便 对 生产 过 程 中 
的 石墨 电极 进行 统计 与 管理 ， 需 要 对 石墨 电极 表面 压 印 字符 
进行 识别 。 语 义 分 割 是 识别 前 的 重要 步 又， 而 语义 分 割 数据 
集 像 素 级 的 标注 将 会 给 企业 带 来 巨大 的 生产 成 本 。 本 文 使 用 
计算 机 生成 源 域 数据 ， 摄 像 机 采集 目标 域 数据 ， 采 用 域 适应 
分 割 方法 有 效 地 解决 了 这 一 问题 ， 为 企业 节省 了 标注 成 本 。 

实验 数据 集 包 含 源 域 数 据 和 目标 域 数据 两 部 分 。 源 域 
(模拟 ) 数 据 由 计算 机 字库 字符 截图 构成 ， 无 须 手 工 标注 ， 有 具 
计算 机 生成 的 完备 的 标签 集 。 图 像 中 字符 的 字体 、 大 小 和 
空间 位 置 均 是 随机 的 。 目 标 域 数据 由 手机 摄像 头 采 集 某 碳 材 
料 生产 企业 的 石墨 电极 表面 压 印 字符 图 像 构成 ， 如 图 7 所 示 。 

实验 数据 集 示 例 图 像 如 图 8 所 示 。 源 域 数据 (计算 机 字 
库 字 符 ) 包 含 600 张 图像 ， 目 标 域 数据 (石墨 电极 表面 压 印字 
符 ) 包 含 550 张 图 像 ， 其 中 440 张 图 像 为 训练 数据 ，110 张 图 
像 为 测试 数据 。 数 据 集 所 有 图 像 的 尺寸 均 为 512 Xx 128。 
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图 7 石墨 电极 实 拍 图 像 
Fig.7  Realimage of graphite electrode 
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fA, TROU 
的 像素 点 。 


23 ”实验 参数 设置 


实验 依 提 


录用 定稿 Pe, d 
图 像 标签 
计算 机 Pttss; 
TEF 
a Vzto0,, Uz100,, 
EDEN OAO4757 
压 印字 
adu — Hn 
"o 99 0.4768. 0404768 
benie : 


E TensorFlow ^F & £j 
Python 版 本 为 3.6.5。 实 验 平台 配置 如 下 : CPU 为 Intel E7- 
4830 v4， 内 存 容量 为 48G，GPU 为 
训练 策略 如 下 : 在 每 一 轮 次 训练 中 ， 从 源 域 600 张 计算 
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E 的 像素 点 。 假 负 例 FN 为 实际 为 正 ， 预 测 为 负 


申 经 网 络 ， 版 本 为 1.15， 


Tesla K40c. 


机 字库 字符 


图 像 中 随机 抽取 440 张 图 像 及 对 应 标签 与 


标 域 


2.2 


区 | 


8 数据 集 图 像 示例 


Fig.8 Examples of dataset 


评价 指标 
使 用 像素 精度 (Pixel Accuracy, PA). j| 
(Mean Pixel Accuracy，MPA)、 精 准 率 (Precisiom)、 召 回 率 
比 (Mean Intersection Over Union, MIoU) 


训练 集 440 张 石墨 电极 表面 压 印 字符 图 像 构成 当前 轮 次 训练 


训练 过 程 中 对 于 每 1 个 批 次 的 源 域 数据 ， 使 ) 


j 随 机 放 


缩 及 加 噪 的 方法 增加 样本 多 样 性 ， 提 升 分 割 效 果 。 生 成 器 学 


(Recall) 和 平均 交 
等 五 种 评价 指标 对 网 络 性 能 进行 评估 。 


PA 为 分 类 正确 的 像素 点 数 与 总 像素 点 数 之 比 。 MPA 为 


F 均 像素 精度 


结 


习 率 设 为 le-5， 判 别 器 学 习 率 设 为 4e-6， 使 用 
进行 优化 。 每 迭代 1 轮 保存 1 次 网 络 模型 ， 
使 用 保存 的 网 络 模型 对 测试 集 进行 测试 ， 记 录 各 轮 模型 测试 


9 所 示 ， 分 割 细节 对 比如 


c) BEAL 组 块 状 噪 点 较 pOSAL 组 


Adam 优化 器 
EIR 100 轮 。 


2.4 实验 结果 与 分 析 


实验 分 为 CLANIIO、pOSALIUU、BEALI2、DbFFDA 等 


DbFFDA 与 现 有 算法 的 性 能 表现 。 


MIoU 是 语义 分 割 领域 使 用 最 广泛 的 性 能 评价 指标 。 选 


指标 ， 找 出 各 实验 组 的 MIoU 最 大 值 对 
割 效果 
10 所 示 。DbFFDA 与 


将 该 轮 评价 指标 数据 作为 实验 结果 。 


a 


比如 表 1 。 

10 和 表 1 数据 可 以 看 出 : 

图 像 中 字符 缺失 严重 ， 且 存在 大 量 
仅 为 56.22%。 

像 中 字符 较为 完整 ， 但 仍 存在 


所 得 


a 


定 程 度 的 减少 ， 


可 达 68.46%。 


各 类 目标 分 类 正确 的 像素 点 数 与 该 类 总 像素 点 数 之 比 的 均值 。 2.4.1 对 比 实验 结果 与 分 析 
Precision 为 预测 为 正 例 的 像素 点 中 实际 为 正 例 的 比例 。 
Recall 为 正确 预测 的 正 例 的 比例 。 交 并 比 ToU 为 预测 图 像 与 4 组 。 对 比 了 
标签 图 像 中 某 一 类 物体 交集 所 含 像素 点 数 与 并 集 所 含 像素 点 
数 之 比 ， 平 均 交 并 比 MoU 指 各 类 交 并 比 的 均值 。 五 种 评价 ] MIoU 作为 主 评价 3 
指标 公式 如 下 : 应 训练 轮 次 ， 
TP TN (5) 对 比如 图 
TP+FN+TN+FP 现 有 算法 定量 评价 对 
Mpa=mean TP+TN ) © 根据 图 9. 
TP+FN+TN+FP a) CLAN 组 分 割 
TREE: O) 块 状 噪点 。 无 法 进行 后 续 识 别 ，MIoU 
7TP+PP b) pOSAL 组 分 制 所 得 
Recall = TP (8) 大 量 块 状 噪点 , MIoU nfi 66.8395, 
TP FN 
miou =mean (A J Q) 但 字符 仍 存在 一 定 程度 的 缺失 ，MIoU 
AUB 


d) DbFFDA 组 分 割 所 得 


KI 


像 中 字符 基本 无 缺失 ， 边 缘 光 


其 中 ， 真 正 例 7P 为 实际 为 正 ， 预 测 为 正 的 像素 点 。 真 负 例 。 滑 无 毛刺 ， 块 状 噪点 最 少 。MIoU 可 达 69.60%， 基 本 满足 工 
TN 为 实际 为 负 ， 预 测 为 负 的 像素 点 。 假 正 例 FP 为 实际 为 ” 业 应 用 中 表面 压 印 字符 后 续 识 别 需 求 。 

^ OAG 5952 RE s R 0405 979 o4 0 4873. 
dul AN a ze TREI CAU gee EEUU 
o OAO 5982 0A04815 oa 9 $25 QN0:5979 | 0h 0 4873 
x OAO 5982 0A404815 oA o wes 040/5979 | o^: 0 2873 
040.5982 / 0404815 oa 0 ^851040 5979 oh 0 2873 
" 1040 598210A404815| oa 04851040 5979 | 04 0 4873 


图 9 分 割 效 果 对 比 


Fig.9 Comparison of segmentation effect 


表 1 对 比 实 验 定量 评价 


图 10 分割 细节 对 比 


Fig. 10 Segmentation detail comparison chart 


Tab. 1 Quantitative evaluation of comparative experiments /% 
Approachs PA MPA Precision Recall MIoU 
CLANHO 93.99 60.44 45.81 22.49 56.22 
pOSAL!! 93.5] 82.39 45.43 64.14 66.83 
BEALU?! 95.59 82.07 46.91 61.34 68.46 
DbFFDA 96.12 — 80.90 59.60 64.29 69.60 


242 消融 实验 结果 与 分 析 
消融 实验 分 为 U-Net( 全 监督 六 、U-Net( 无 监督 六、Res- 


Adp( 创 新 点 D)、Res-Adp+ 融 合 特征 输入 (创新 点 1+2)、Res-Adp+ 
融合 特征 输入 + Len (DbFFDA， 创 新 点 1+2+3)4 5 组 。 对 比 了 
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DbFFDA 与 全 监督 U-Net 网 络 的 性 能 差距 ， 并 实验 证 实 了 提出 的 。” 将 该 轮 评价 指标 数据 作为 实验 结果 。 分 割 效 果 对 比如 图 11 所 示 ， 
各 创新 点 的 效果 。 找 出 各 实验 组 的 MIoU 最 大 值 对 应 训练 轮 次 ， 分 割 细 节 对 比如 图 12 所 示 。 消 融 实 验 定量 评价 对 比如 表 2. 


prn | 040.5982 0A404815 | oA Gà 2851 040 5979 | 0À: 0 4873 


Res-Adp 


599 OAO 59821040481 


Res-Adp 


emaa 100.5932 0404815104 04251040 5979 | 04: 0 4873 


标 和 i 0AO0 5982 0A404815i0A 04851040 5979 | 04A 0 4873 
图 11 消融 实验 分 割 效 果 对 比 
Fig. 11 Image of segmentation effect comparison of ablation experiment 
,| 手工 标注 成 本 高 昂 的 问题 ， 本 文 提出 一 种 双 支 路 特征 融合 的 
A A A 域 适 应 分 割 方法 DbFFDA。 首 先 ， 借 鉴 U-Net 的 跨 层 连接 设 
计 思 路 ， 提 出 一 种 双 分 支 上 采样 分 割 网 络 Res-Adp。 同 时 ， 
4. 4- 将 灰 度 图 像 、 中 值 滤波 图 像 与 边缘 检测 图 像 融合 作为 网 络 输 
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入 数据 ， 抑 制 了 原 图 中 的 噪点 ， 增 强 了 字符 的 边缘 信息 。 此 


T| 4 7 
0 Q 当 具 有 相同 的 性 质 ， 本 文 据 此 提出 分 割 连续 性 损失 函数 [6 ， 


t: | | 该 函数 通过 约束 源 域 分 割 图 像 的 生成 间接 提升 目标 域 图 像 的 
M «(e Une Ba RGN MONERA p 分 割 效果 ， 进 一 步 抑制 了 字符 中 空洞 与 背景 噪点 的 产生 。 
| | COMBO ARMS | DbFFDA 分 割 所 得 图 像 中 字符 完整 、 边 缘 光 滑 、 噪 点 较 少 ， 
图 12 ”消融 实验 分 割 细节 对 比 MIoU 可 达 69.60%， 基 本 满足 工业 应 用 中 表面 压 印字 符 后 续 
Fig. 12 Segmentation detail comparison of ablation experiments 识别 需求 。 
K2 消融 实验 定量 评价 针对 部 分 图 像 因 光 照 不 均 引 起 的 分 割 预测 中 噪点 过 多 的 
Tab.2 Quantitative evaluation of ablation experiment /% 问题 ， 作 者 将 在 后 续 工 作 中 尝试 对 判别 器 结构 进行 改进 ， 使 
Approachs PA MPA Precision Recall MIoU 其 更 好 的 约束 生成 器 的 优化 ， 抑 制 分 割 预测 中 噪点 的 产生 ， 
U-Net( 全 监督 )D 98.31 90.67 79.01 82.30 83.08 提升 分 割 效果 。 
U-Net( 无 监督 ) 外 96.38 60.44 54.71 56.79 67.48 
Res-Adp 95.75 84.78 51.87 72.85 69.00 参考 文献 
Res-Adp+ 融 合 特征 输入 96.73 79.20 60.65 60.11 69.43 [1] Long J, Shelhamer E, Darrell T. Fully convolutional networks for 
Res-Adp+ 融 合 特征 输入 + Lem 96.12 80.90 59.60 64.29 69.60 semantic segmentation [C]// Proc of IEEE Conference on Computer 
根据 图 11、12 及 表 2 数据 可 以 看 出 : a) 无 监督 U-Net Vision and Pattern Recognition. Boston: IEEE Press, 2015: 3431-3440. 
组 分 割 所 得 图 像 存在 字符 缺失 、 噪 点 较 多 等 问题 。Res-Adp [2] Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for 
组 (创新 点 1) 由 于 采用 了 双 分 支 上 采样 结构 ， 在 对 齐 两 域 特 biomedical image segmentation [J]. Medical Image Computing and 
征 的 同时 又 较为 完整 的 保留 了 本 域 特征 ， 极 大 程度 地 改善 了 Computer-Assisted Intervention, 2015: 1520-1528. 
这 一 问题 ， 分 割 得 到 的 字符 连续 无 缺失 ，MIoU f£ U-Net( 无 [3] Chen L C, Papandreou G, Kokkinos I, et al Semantic image 
监督 ) 组 提升 了 1.5296. b) Res-Adp+ 融 合 特征 输入 组 (创新 点 segmentation with deep convolutional nets and fully connected crfs [C]// 
1+2) 由 于 输入 网 络 的 数据 中 增加 了 中 值 滤波 图 像 与 Sobel 算 International Conference in Learning Representations, 2015. 
子 边缘 检测 图 像 ， 抑 制 了 原 图 中 的 噪点 ， 增 强 了 字符 的 边缘 [4] Chen L C, Papandreou G, Kokkinos I, et al. Deeplab: Semantic image 
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且 噪 点 较 Res-Adp 组 (创新 点 1) 也 有 一 定 程度 的 减少 ， 使 得 connected crfs [J]. IEEE Trans on Pattern Analysis and Machine Intelli- 
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